7 de junio de 2017

Estructura de la sesión:

  • Un vistazo al estado actual de la reproducibilidad en el ámbito científico.

  • Replicabilidad.

    • Definición e ilustración del concepto de replicabilidad.

    • Causas de la crisis de replicabilidad.

    • Abordaje de la replicabilidad.

Un vistazo al estado actual de la reproducibilidad en el ámbito científico.

Reproducibilidad en Biostatistics

Se establece Associated Editor for Reproducibility.

Evaluación de reproducibilidad tras aceptación de trabajos.

Distintos sellos de reproducibilidad de trabajos:

  • D=Data.

  • C=Code.

  • R=Reproducibility (D + C + Verificacion de resultados).

Reproducibilidad en JASA

Editorial de Journal of the American Statistical Association sobre reproducibilidad (Julio de 2016)


Se requiere aportar código y datos. Código será específicamente evaluado durante el proceso de revisión por uno de los revisores.

Reproducibilidad en Nature






Editoriales sobre diseminación de código (Octubre 2014), de datos (Septiembre 2016) y un manifiesto a favor (Enero 2017).


Se requiere reportar disponibilidad de códigos e instrucciones de uso.

Se requiere especificar si los datos del estudio son accesibles y de qué forma.

Promueve la publicación y cita de fuentes de datos de la misma forma que se citan otros estudios previos de la literatura.

Reproducibilidad en NEJM



Reproducibilidad es más controvertida en el ámbito médico.

Editorial de Enero de 2016.

Se asocia la diseminación de datos con la proliferación de "investigadores parásitos".

Se prevé "posible robo de la productividad planeada de los recolectores de datos".

El editorial genera enorme controversia y duras críticas en tan sólo horas.



Las críticas obligan a NEJM a publicar un segundo editorial en apenas 4 dias.

Comprometen a los autores a compartir datos en 6 meses desde publicación (medida propuesta por el ICMJE, International Comittee of Medical Journal Editors).

Apela a la obligación moral con los sujetos de estudio de los ensayos clínicos.

Reproduciblidad en agencias financiadoras

La Academia Nacional de Medicina (EEUU) formula recomendaciones para el desarrollo de tests de enfermedades basados en datos ómicos.

Entre sus recomendaciones: Publicar datos y metadatos utilizados. Compartir código y procedimientos computacionales utilizados, en particular los asociados al preproceso de los datos.

El National Cancer Institutes (NCI) acoge este informe desarrollando una lista de OBLIGADO CUMPLIMIENTO para las propuestas de financiación basadas en datos ómicos.

El NIH "sugiere" que los datos sean tan accesibles como sea posible.

Obligación de incluir planes de data sharing para propuestas de financiación de más de 500.000 dolares.

Reflexiones sobre el tratamiento actual de la reproducibilidad

Reproducibilidad consiste en facilitar transparencia de materiales (datos) y procesos (código) en la investigación científica.

Revistas y agencias financiadoras parecen estar tomando ya cartas en el asunto.

  • Revistas no empiezan a dar por bueno hermetismo en cuanto a datos y códigos.

  • Agencias financiadoras no admiten que datos de estudios que financien benficien sólo a destinatarios de las ayudas.

Reproducibilidad es un tsunami que se nos viene encima y va a cambiar nuestra forma de trabajar y compartir nuestro trabajo.

Adaptemos nuestras prácticas para adaptarnos a esta situación que requerirá cambios en nuestras dinámicas de trabajo.

Replicabilidad: Definición e ilustración del concepto de replicabilidad.

Reproducibilidad y replicabilidad

Reproducibilidad: Mismos datos, distintos experimentadores, resultados iguales (presumiblemente) -> Transparencia de procesos.

Replicabilidad: Distintos datos, similares condiciones experimentales, resultados similares (constatables) -> Generabilidad de los resultados.

Reproducibilidad y replicabilidad son dos conceptos a menudo confundidos en la literatura.

En ningún caso reproducibilidad indica corrección de los resultados. "Results that are not reproducible are hard to verify and results that do not replicate in new studies are harder to trust."

¿También crisis de replicabilidad?

Wikipedia


Las crisis de reproducibilidad y replicabilidad han dado lugar a un campo de investigación emergente, metaciencia, que se encarga del estudio científico de la ciencia en sí misma y los factores que influyen en la validez de sus resultados.

Replicabilidad en Medicina

Ioannidis (JAMA, 2005) lleva a cabo un estudio de replicación de trabajos publicados entre 1990 y 2003 en New England, JAMA, Lancet o revistas médicas especializadas con IF>7.

Criterio de inclusión: número de citas hasta agosto de 2004>1000 (análisis paralelo para artículos con menos citas). Se excluyen meta-análisis, revisiones, …

Busqueda bibliográfica de estudios similares, con criterios de calidad (tamaño muestral, diseño, …) similares o superiores, que pudieran corroborar o refutar dichos estudios.

Los 49 artículos encontrados como elegibles, se clasifican como:

  • Negative, no presentaba resultados positivos (4, todos refutaban estudios anteriores).
  • Unchallenged, no se ha valorado su replicabilidad en la literatura (11).
  • Contradicted, el efecto original no se ha podido replicar (7).
  • Initially stronger effects, el efecto original o su duración se reduce a menos de la mitad (7).
  • Replicated, el efecto original ha sido corroborado (20).

41.2%(=14/34) de los estudios testados, con efectos positivos, son refutados por estudios de similares características.

Los ensayos clínicos aleatorizados mostraron menor tasa de discrepancias (Contradicted+Initially stronger effects), 9 de 39(=23.1%), que el resto de estudios, 5 de 6(=83.3%).

Entre los ensayos clínicos aleatorizados:

  • Estudios más antiguos tienen más probabilidad de haber sido refutados (8/23 vs 1/16).
  • Estudios refutados tienen menor tamaño muestral que el resto (624 vs 2165 individuos en promedio).

En el estudio de trabajos con menos citas los resultados son similares: 10 de 30(=33.3%) estudios (corroborables) fueron refutados.

Replicabilidad en Psicología

En 2015 (Science), el Center for Open Science publica los resultados de un estudio colaborativo de replicación en psicología.

Mayor esfuerzo de replicabilidad llevado a cabo hasta la fecha. "One of the top 10 scientific breakthroughs of the year (Science)"

Distintos grupos de forma independiente replican 100 estudios publicados en la literatura (artículos de 2008 en revistas influyentes).

A diferencia del estudio de Ioannidis, este estudio replica especificamente los estudios de la literatura (evidencia empírica).

39 de los 100 estudios corroboran los resultados originales.

El problema podría ser todavía peor ya que se trata de estudios en revistas "de prestigio".















Sólo parte de los estudios replicados parecen reproducir los efectos originales.

El efecto promedio de los estudios replicados fue sólo la mitad de lo publicado originalmente.



El "Decline Effect"

Pero ni siquiera la publicación de replicas positivas de trabajos es garantía de nada.

Facciones asimétricas se consideran signo de mutaciones genéticas.

Moller (Nature, 1991) descubre que hembras de golondrinas prefieren machos con plumaje más simétrico.

Simetría de plumaje sería indicador indirecto de calidad genética.

Hembras aplican este criterio (mecanismo de selección natural) de forma inconsciente.

En los 3 años siguientes 9 (de 10) artículos corroboran la teoría anterior.

Dicha teoría se estudia en humanos:

  • Mujeres prefieren el olor de hombres con facciones simétricas, aunque sólo durante su periodo fértil.
  • Mujeres tenían más orgasmos con hombres simétricos.
  • Bailarines simétricos son consistentemente evaluados como mejores.

Pero:

  • En 1994 sólo 8 de 14 artículos corroboran el efecto original.
  • En 1995, 4 de 8 artículos lo corroboran.
  • En 1998, 4 de 12 artículos lo corroboran.
  • De 1992 a 1997, el efecto originalmente encontrado decae en un 80%.

Decline effect, estructura general:

Tras proponerse un paradigma, los procesos de publicación científica tienden a corroborarlo (sesgo de publicación). Años después los incentivos editoriales cambian difundiendo aquellos resultados que desaprueban el paradigma establecido.

Decline effect ha sido documentado en muchas más situaciones:

  • Efectividad de fármacos antipsicóticos de segunda generación.
  • Verbal overshadowing: Efecto de la descripción verbal de una sensación o percepción sobre el recuerdo/memorización de dicha percepción. Descripción verbal empeora el recuerdo posterior.
  • Percepción extra-sensorial: Capacidad de predecir hechos futuros.

Decline effect es una expresión más de la crisis de replicabilidad.

Replicabilidad: causas de la crisis

1.- Deficiencias en los procedimientos

fMRI

fMRI ha sido la herramienta principal para estudiar la funcionalidad de cada región cerebral.

Habitualmente, individuos se someten a estímulos y, mediante resonancia magnética, se determinan las regiones del cerebro con mayor consumo de hemoglobina tras dicho estímulo.

Dichas áreas teóricamente serían las encargadas de procesar y asimilar el estímulo.

Habitualmente este tipo de estudios tiene diseño de casos y controles.

PNAS, 12/07/2016


"fMRI is 25 years old, yet surprisingly its most common statistical methods have not been validated using real data. Here, we used resting-state fMRI data from 499 healthy controls to conduct 3 million task group analyses. Using this null data with different experimental designs, we estimate the incidence of significant results. In theory, we should find 5% false positives (for a significance threshold of 5%), but instead we found that the most common software packages for fMRI analysis (SPM, FSL, AFNI) can result in false-positive rates of up to 70%. These results question the validity of a number of fMRI studies and may have a large impact on the interpretation of weakly significant neuroimaging results."

El tratamiento de la dependencia espacial empleado en los 3 paquetes de software estudiado no ajusta de forma adecuada la correlación espacial, disparando el número de falsos positivos.

Discover


Este trabajo ha supuesto un auténtico terremoto dentro del campo de fMRI.


Se estima que unos 3500 artículos podrían estar afectados (alrededor del 9% de la literatura del campo).

"Eklund and his colleagues were only able to discover this methodological flaw thanks to the open sharing of group brain scan data by the 1,000 Functional Connectomes Project."

2.- Conflictos de intereses

Conflictos de intereses distorsionan la literatura científica, sesgando la literatura científica en direcciones interesadas.

No se pública en función de la evidencia sino de la conveniencia.

Conflictos de interés están, en parte, detrás de la crisis de replicabilidad.

Tipos de conflictos de interés en publicaciones científicas:

  • Intereses comerciales, políticos y sociales.
  • Presión por publicar de los científicos.
  • Interés de las revistas por publicar resultados novedosos, rompedores.

Intereses comerciales, políticos y sociales.

Investigación científica ofrece un estupendo argumento a decisiones o intereses arbitrarios que de otra forma serían difíciles de justificar.

La aureola de veracidad de la ciencia legitima decisiones políticas y sociales ("evidence based policy") o intereses comerciales.

Grupos de presión, asociaciones, lobbies … buscan sustento en literatura científica.

El problema surge cuando la ciencia no se usa para guiar las decisiones sino para justificarlas.

"Scientists working in the policy arena are often naïve about the impact of their findings"

Danone

"Instituto Danone para la Nutrición y la Salud" ofrece ayudas a la investigación:

Leyendo la convocatoria con más detalle uno se de cuenta:

Financiación se destina a estudiar propiedades beneficiosas de sus productos (para que posiblemente engrosen la literatura científica).

La intencionalidad de estos estudios es evidente. Se busca sustento no conocimiento.

+ Danone

Actimel es uno de los productos estrellas de Danone con una facturación anual de alrededor de 5300 millones de dolares (25% de la facturación del grupo).

Se trata de un alimento funcional con unas supuestas propiedades beneficiosas para la salud ("mejora tus defensas").

Su principal propiedad, reducción de diarreas, se atribuye a la presencia de una cepa patentada de Lactobacilus Casei Imunitass .

Sus efectos positivos se sustentan (supuestamente) en literatura científica generada al efecto. De ahí la importancia comercial de disponer de literatura científica que permita aducir estas propiedades.

La European Food Safety Administration (EFSA) emite en 2010 un informe sobre los efectos de este producto sobre la salud.

El informe "rechazó los más de 20 trabajos de investigación que pretendían avalar los beneficios del Actimel".

"The Panel concludes that the evidence provided is insufficient to establish a cause and effect relationship between the consumption of Actimel and a reduction of the risk of C. difficile diarrhoea"

La EFSA destaca errores repetidos de procedimiento en los estudios evaluados.

Las propiedades beneficiosas publicitadas de Actimel, y otros prebióticos, se sostienen (y por tanto permiten) sólo por la presencia de vitamina B6 en su composición (aunque su dosis es, por ejemplo, un tercio inferior a la de un plátano).

En cualquier caso el halo ilusorio de credibilidad de la ciencia sigue presente en el producto.

Presión por publicar de los científicos

La ciencia vive una proliferación "industrial" de datos y de publicaciones que los explotan. Producción científica tratada como producto de consumo disminuye su calidad.

El sistema académico considera el número de publicaciones como uno de sus principales parámetros para valorar a sus integrantes. Científicos son en gran parte evaluados por su volumen de publicaciones.

Sería conveniente poner el foco en la calidad de las publicaciones más que en su cantidad.

La presión, o simplemente el interés, por publicar supone un claro conflicto de interés (más allá de lo económico) de todas las publicaciones.

Presión de las revistas por publicar resultados novedosos

Además, las revistas exigen resultados novedosos: "Results need to be exciting, eye-catching, even implausible … When we review papers we're often making authors prove that their findings are novel or interesting. We're not making them prove that their finding are true"

Esta presión se vive fundamentalmente en aquellas revistas de mayor impacto, aquellas que influyen en mayor medida en la literatura.

Si los datos pueden hablar por sí solos también pueden ser torturados hasta que confiesen …

3.- Sesgo de publicación

No todos los estudios ven la luz de la publicación científica con la misma probabilidad.

Resultados no significativos, o en contra de la hipótesis inicial de los investigadores, tienden a no ser publicados. Este efecto se conocer como "file drawer problem".

Este efecto puede alterar el corpus bibliográfico ocultando parte de la evidencia científica disponible y por tanto sesgando el conocimiento acumulado en ciertas áreas de investigación.

Sesgo de publicación y el decline effect: "Another reason may be the publication bias: scientists and scientific journals prefer to publish positive results of experiments and tests over null results, especially with new ideas. As a result, the journals may refuse to publish papers that do not prove that the idea works. Later, when an idea is accepted, journals may refuse to publish papers that support it."

Sesgo de publicación y acupuntura

Revisión sistemática de la literatura sobre la efectividad de acupuntura, de 1966 a 1995, para un grupo de paises (Vickers et al., 1998).

Los paises asíaticos reportan resultados significativamente favorables a la acupuntura en 61 de 63 estudios (96.8%).

Paises no asiáticos reportan resultados significativamente favorables a la acupuntura en 110 de 191 estudios (57.6%).

Conflictos de intereses también producen sesgos de publicación evidentes.

4.- Regresión a la media

Es el fenómeno estadístico por el que los individuos con observaciones extremas tenderán a estar más cerca a la media de la población en posteriores observaciones.

Este fenómeno de "regresar" hacia la media dio nombre originalmente a los modelos de regresión.

Estudios son muestras de tamaño 1 del universo de posibles estudios. Sacamos conclusiones a partir de una única muestra.

Tomando una muestra lo suficientemente extrema podremos demostrar virtualmente cualquier resultado. Un 5% de las muestras posibles, simplemente por azar, nos deberían dar un resultado significativo (aunque no existiera efecto).

Así, muchos hallazgos "significativos" pueden ser simplemente outliers estadísticos (muestras suficientemente anómalas) que al intentar ser replicados pierden su excepcionalidad.

Regresión a la media podría estar también detrás del decline effect:

-Conflictos de intereses hacen que outliers estadísticos no pasen desapercibidos y acaben publicados.

-Sesgo de publicación evita que dichos resultados anómalos sean contrarestados inicialmente, aunque sí posteriormente cuando ya no son tan novedosos.

Abordaje de la crisis de replicabilidad

Pre-registro de estudios

Procedimiento adoptado de ensayos clínicos: todos los procedimientos de análisis han de ser declarados de antemano a la recolección de datos de análisis. Center for Open Science, por ejemplo, ofrece esta posibilidad.

https://www.nature.com/…

Una vez aprobado el registro previo del estudio por un grupo de evaluadores se garantiza la publicación de los resultados del estudio.


Triple objetivo:

  • Limita intervención interesada de experimentadores en el análisis.
  • Fomento publicaciones con métodos rigurosos y bien documentados.
  • Disminución de sesgo de publicación (fomenta publicación de resultados negativos).

Atención específica a la replicabilidad en revistas

Estudios de replicación son menos atractivos que estudios originales.

Revistas deberían promover estudios de replicación para vigilar la calidad de sus contenidos.

"Perspectives in Psychological Science" ha creado una sección exclusiva para estudios de replicación.

Social Psychology, número monográfico sobre replicación de estudios de importancia particular en este ámbito.

Algunas revistas (Psychological science) anima específicamente a la publicación de estudios con protocolos pre-registrados.

Atención específica a resultados negativos

Financiación específica a estudios de replicación

La introducción de replicabilidad en la agenda de las agencias de financiación puede hacer significar una gran diferencia. "A mere 3% of scientific funding devoted to replication could make a big difference. The current amount is, he says, near zero" (Nature, 2015).

The Netherlands Organisation for Scientific Research en 2016 ha lanzado una línea de financiación específica para replicar estudios de gran impacto en ciencias sociales y salud.

Sociedades científicas (o las propias revistas científicas) podrían también incentivar/premiar estudios de replicación de sus actividades, revistas que auspician … Serían las más interesadas en validar la literatura del campo correspondiente.

Formación en replicabilidad

Replicación poco agradecida. Todos preferimos un esfuerzo creativo más que confirmatorio de los resultados de otros investigadores. Este hecho debería ser combatido en bien de la propia ciencia.

Hay pocos incentivos para practicar replicabilidad: estudios de replicabilidad invitan a sus investigadores a ser criticados y ayudan poco a mejorar su historial de publicaciones

Resulta necesario transmitir a futuros investigadores la importancia de replicar estudios frente al desarrollo de investigación. Replicación es tarea que nos compete a todos.

Sugerencias de publicación de algún estudio de replicación en el ámbito de la tesis doctoral antes de que esta pueda ser leida.

Sugerencias de promoción de trabajos de replicabilidad en Trabajos de Fin de Máster con caracter multicéntrico o multidisciplinar.

Para concluir

En materia de replicabilidad, como en tantos otros temas, "lo difícil no es llegar si no mantenerse".


Se pretende la generación de resultados sólidos que "pasen el test del tiempo" ("Many scientific results will not stand the test of time", Editorial de JASA).


El método científico debería dar las bases para que así sea aunque, por desgracia, en el entente actual es menos efectivo de lo deseable.